[2023年4月5日号]個人的に気になったModern Data Stack情報まとめ

Modern Data Stack情報まとめモダンデータスタック(MDS)

さがら

2023.04.05

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

さがらです。

Modern Data Stack関連のコンサルタントをしている私ですが、Modern Data Stack界隈は日々多くの情報が発信されております。

そんな多くの情報が発信されている中、この2週間ほどの間で私が気になったModern Data Stack関連の情報を本記事でまとめてみます。

今回の2023年4月5日号が1本目です！今後、可能な範囲で2週間に1度くらいのペースで投稿できればと考えています。

※注意事項：記述している製品のすべての最新情報を網羅しているわけではありません。私の独断と偏見で気になった情報のみ記載しております。

Data Extract/Load

Fivetran

S3に対してApache Icebergフォーマットで出力可能になりました

Fivetranは元々、アプリケーションやRDB➟DWHへの連携に強みを持つ製品でしたが、今回Apache IcebergのフォーマットでS3に出力できる機能をリリースしました！

今後の展望として、Snowflakeが発表しているIceberg Tableと組み合わせて使うと、各アプリケーションやRDBのデータも全てS3上に置いたレイクハウスアーキテクチャが簡単に実現できそうですね！

Airbyte

Data Modelingに関する記事を出していました

データのExtract～Loadを担ってくれるAirbyteが企業ブログで、データモデリングに関する3部作の1本目の記事を出していました。1本目では、データモデリングが重要な理由から歴史に加え、昨今データモデリングが再び注目されている理由、データモデリングに必要な概念、などについて書かれています。

Airbyte社は定期的にデータエンジニアリングに関する優良な記事を出しているため、要チェックです！

Data Warehouse

Snowflake

Snowpark for PythonのコーディングがSnowsight上で出来るように

Snowpark for PythonのコーディングがSnowsight上で出来る「Python Worksheets」がパブリックプレビューになりました！

これまでSnowparkを用いた処理を開発するには、自身で開発環境を構築してSnowpark含め必要なライブラリをインストールして、という一連の準備が必要でしたが、Snowsightの画面上でPython Worksheetsを選択して起動するだけで、すぐに実行できるサンプルコード付きのWorksheetsを立ち上げて、Snowparkを用いた処理の開発に取り掛かることができるようになりました。

私も簡単にですが試してみたので、ぜひ下記の記事も併せてご覧ください！

BigQuery

BigQueryからCloud SpannerのデータをFederated Queryでクエリ可能に

Cloud Spannerはスケーリング容易でフルマネージドなRDBですが、BigQueryから直接Federated Queryでクエリ出来るようになりました！こういったFederated Queryの機能は、Google CloudやAWSの強みだなと改めて実感しました。

Data Transform

dbt

dbt Tokyo Meetup #5が開催

dbtの日本コミュニティにて、5回目となるMeetupが開催されました！dbtを実運用している方々が知見が盛りだくさんで、dbtをご利用中の方はとても参考になる情報が多いと思います。

YouTubeで録画も配信されておりますので、ぜひご覧ください！

Business Intelligence

Looker

Looker Modelerの発表

Lookerは元々LookMLで定義したModelを参照してダッシュボードを構築できる製品でしたが、この「LookMLで定義したModel」の部分だけを抽出した、Looker Modelerという製品が発表されました。Semantic Layerの分野が最近熱いですね！

Sisuとの連携機能をPrivate Previewで提供開始

SisuとLookerの連携機能がPrivate Previewで提供開始となりました。

Lookerのタイルから起動することで、Sisuが自動で算出してくれる各指標の構成要素をすぐに確認することができ、より深い分析が可能になります。Sisuを使うことで、ユーザー側で何もしなくてもインサイトを出してくれるのがありがたいですね！

Tableau

Tableau 2023.1でJDBCベースのBigQueryコネクタがリリース

従来のBigQueryコネクタとアーキテクチャを変更し、JDBCベースのコネクタがTableau 2023.1から使用できるようになりました！

特に注目したいのが抽出の作成速度で、下記の記事では「761万レコードのデータセットから抽出を作成したところ、従来のコネクタでは9分35秒かかったものが、新しいコネクタでは2分6秒で完了しました。」とありました。これは熱いですね！

1つ注意点としては、抽出の高速化に使用されているBigQuery Storage Read APIは「月に300TBまで無料、以降1TBごとに1.32USD　※asia-northeast1にて」のコストがかかります。データ容量によっては思わぬコストが発生するかもしれないため、ご注意ください！

Thoughtspot

GPT-3と連携したThoughtSpot Sageを発表

元々自然言語で問い合わせしてグラフを作成できることがコンセプトであったThoughtspotでしたが、GPT-3との連携機能を「Thoughtspot Sage」として発表していました。

Data Catalog

Select Star

Power BIと接続している場合にカラムレベルリネージが見れるように

元々TableauやLookerではカラムレベルリネージに対応していたSelect Starですが、Power BIも対応しました！

Atlan

GPT-3を搭載したTrident AI　※2022年12月に発表

Atlanが、GPT-3と連携した「Trident AI」を発表していました。Descriptionの提案、READMEの提案、といったことが出来るようです。（下記のデモ動画も併せてご覧ください。）

また、GPT-3のようなAI機能を搭載したデータカタログについて「AI Data Catalog」と提唱した記事も書いていました。

Secoda

メタデータ管理に関するプラクティス

データカタログのサービスを提供するSecodaが、メタデータ管理に関するプラクティスをまとめた記事を出していました！

Castor

Castor上のDescriptionをdbtに書き戻すことが出来る機能がリリース

Castor上で定義したDescriptionをdbtに書き戻すことができる「Sync Back to dbt」機能が2023年2月にリリースされていました。

こちらの記事で私も試した内容をまとめております！

Amazon DataZone

Amazon DataZoneがパブリックプレビュー

AWSのデータカタログサービスであるAmazon DataZoneがパブリックプレビューになりました！

消費者側は利用したいデータがあったら申請を行って承認を得られたらデータにアクセスできるようになるなど、他のSaaSのデータカタログには無い機能も多く搭載しているため、個人的にも気になっております！

Amazon DataZoneで出来ることについては、下記の記事をご覧ください。

Data Activation (ReverseETL)

Hightouch

BigQuery×HightouchによるComposable CDPの記事

BigQueryとHightouchを組み合わせることで、Composable(構成しやすい) CDPを導入できるよ、という紹介記事がありました。

BigQueryはGA4のデータを標準機能でエクスポート出来るので、GA4で取得したデータも使ってHightouch上でセグメントを切って、各マーケティングツールに連携して配信する、ということがスムーズに可能です。

Data Quality・Data Observability

Monte Carlo

Fivetranとの連携機能を発表

Monte Carloが、Fivetranとの連携機能を発表していました！

詳しい実態は掴めていないのですが、連携することでデータの鮮度、データの分布、データリネージなどが確認できるようになりそうです。

Great Expectations

Cloud版がBetaとして提供開始

元々データの品質チェックに有用であったOSSである「Great Expectations」ですが、Cloud版をBetaとして提供開始しました！

SaaSのためユーザー側でホストする必要なくGreat Expectationsの機能を使うことができ、複数ユーザーに対応するためのアクセス制御機能なども備わっているようです。

最後に

私が個人的に気になったModern Data Stack情報をまとめてみました。

今後も2週間に1度くらいのペースで書いていければと思います！